ELT (Extract-Load-Transform)
ETL (Extract-Transform-Load)
Extract : data source から data を引っ張り出す
RDB、Salesforce、Excel 等から
BigQueryBigQuery.icon から直接 Google Spreadsheet を引ける 逆に Google Spreadsheet から BigQueryBigQuery.icon を引いて可視化も出來る Transform : 分析し易い形に data を整える
分析 query に優しい schema を作る
その他前處理
tool
轉送
Load : 分析 DB に data を入れる
生の data を使へるやうにしておく
data は保存時ではなく利用時に變換する
ただし法的に滿たさねばならない要件――例へば PII (personal identifable information) 等――の處理を除く
data は保存時ではなく利用時に集約する
index 無しでクソデカ table から SELECT できたり、クソデカ table 同士を JOIN できたりするので、ETL の Transform で分析の幅を狭めてしまわなくてもよい
ETLT (Extract-Transform-Load-Transform)
Extract : data source から data を引っ張り出す
(Transform) : PII (個人情報) の mask、畫像等非構造化 data からの抽出、storage の節約等
詰まり前處理
BigQuery ML で非構造化 data の處理は後段の T で出來るものが增えた
Load : 分析 DB に data を入れる
Transform : 分析用の view を作る
ETL の T の一部がここに來てゐる
PythonPython.icon や JavaJava.icon ではなく SQL で變換するので、利用者に近い人が運用出來る 決定を遲らせる。JIT (just in time)
data の民主化